Perché due note reti neurali
artificiali non simulano quelle naturali
PATRIZIO
PERRELLA & DIANE RICHMOND
NOTE E NOTIZIE - Anno XXI – 03 febbraio
2024.
Testi
pubblicati sul sito www.brainmindlife.org della Società Nazionale di
Neuroscienze “Brain, Mind & Life - Italia” (BM&L-Italia). Oltre a notizie
o commenti relativi a fatti ed eventi rilevanti per la Società, la sezione
“note e notizie” presenta settimanalmente lavori neuroscientifici selezionati
fra quelli pubblicati o in corso di pubblicazione sulle maggiori riviste e il cui
argomento è oggetto di studio dei soci componenti lo staff dei recensori della Commissione
Scientifica della Società.
[Tipologia del testo: RECENSIONE]
Studiando la codifica degli stimoli visivi da parte
di popolazioni neuroniche lungo la via che va dalla retina alla corteccia
visiva, un team di ricercatori di ambito neurobiologico e di computer
science ha messo a punto un metodo per definire la relazione funzionale
esistente tra grandi popolazioni di cellule nervose di circuiti complessi, come
quelle della retina e dell’area corticale V1. Tale metodo consente una
comparazione globale tra sistemi di neuroni cerebrali e reti neurali dell’intelligenza
artificiale (AI, artificial
intelligence).
La neuroretina e la corteccia visiva primaria
(V1) presentano entrambe varie popolazioni neuroniche sensibili specificamente
a ciascuno dei numerosi elementi costituenti i tratti rilevanti di ciò che l’occhio
rileva e il cervello vede, grazie alla sintesi integrativa dell’elaborazione
parallela di 32 aree corticali nell’uomo. Considerando solo la prima parte
della via visiva del cervello dei mammiferi, dalla retina al primo arrivo
corticale a V1 delle fibre di proiezione dal corpo genicolato laterale, si possono
paragonare le popolazioni codificanti della retina con quelle di V1, e studiare
il modo in cui, in ciascuna delle due aree, avviene la ripartizione dello
spazio per lo stimolo, per la definizione della dimensione di rappresentazione
degli elementi percepiti.
Finora sono state seguite due ipotesi corrispondenti
ad altrettante possibilità contrapposte: 1) le popolazioni neuroniche sono
organizzate in gruppi discreti di neuroni, con ciascun gruppo segnalante una
particolare costellazione di elementi percettivi; 2) i neuroni sono distribuiti
continuamente attraverso uno spazio di codifica degli elementi percettivi.
Luciano Dyballa e colleghi hanno preso le mosse
dalla verifica di queste due ipotesi contrapposte; poi, proseguendo nell’osservazione
sperimentale, sono giunti a una conclusione di grande rilievo e interesse,
comparando sistemi di neuroni cerebrali e reti neurali artificiali.
(Dyballa L. et al., Population encoding of stimulus
features along the visual hierarchy. Proceedings of the National Academy of Sciences USA – Epub ahead of print doi: 10.1073/pnas.2317773121, 2024).
La provenienza degli autori è la seguente: Department
of Computer Science, Yale University, New Haven, CT (USA); Department of
Neurobiology, Duke University, Durham, NC (USA); Department of Physiology, University
of California, San Francisco, CA (USA); Department of Ophthalmology, David
Geffen School of Medicine, University of California, Los Angeles, CA (USA);
Kavli Institute for Fundamental Neuroscience, University of California, San
Francisco, CA (USA); Department of Biomedical Engineering, Yale University, New
Haven, CT (USA).
Per avvicinare il lettore all’intelligenza
artificiale (AI, da artificial intelligence),
un campo di grande attualità per la recente popolarità di alcuni suoi prodotti
ma ancora poco noto alla maggioranza nella sua genesi e nei suoi protagonisti,
si propone una cronologia delle principali tappe del suo sviluppo.
Non esiste una data universalmente condivisa per
l’effettiva nascita dell’AI come nuova disciplina a sé stante, ma molti
concordano nel considerare il lavoro di McCulloch e
Pitts del 1943[1] un primo
significativo passo in tale direzione. In questo lavoro gli autori, basandosi
su alcune considerazioni sviluppate precedentemente da Alan Mathison
Turing nel 1937[2],
introducono il primo modello matematico di rete neurale artificiale e
dimostrano che elementi semplici connessi in una rete neurale possono avere un’enorme
potenza computazionale. In particolare, dimostrano che a) tutti i connettivi logici possono essere effettuati da piccole reti
così definite e che b) per ogni funzione calcolabile[3] è
possibile definire una rete neurale che la calcoli.
Nel 1949 Donald Hebb[4], in un’opera
che sarebbe poi divenuta una pietra miliare della neurobiologia, osserva che la
scarica simultanea dei neuroni presinaptico e post-sinaptico determina un
potenziamento reciproco che potrebbe essere la base dell’apprendimento (Hebb’s rule). Il criterio viene adottato come
una semplice regola di aggiornamento per modificare la forza di connessione tra
le unità artificiali che rappresentano i neuroni. In virtù di tale regola, che
prenderà il nome di apprendimento hebbiano, le reti
neurali di McCulloch e Pitts diventano capaci di
apprendere.
Nell’estate del 1950 Marvin Minsky
e Dean Edmonds costruiscono la prima rete neurale analogica: una macchina che
prenderà il nome di SNARC (stochastic neural-analog reinforcement calculator).
Nello stesso anno Alan Turing pubblica, sulla rivista Mind, “Computing machinery and intelligence”[5]: un
articolo destinato a diventare un riferimento imprescindibile in questo campo. Turing
argomenta circa la possibilità che le macchine possano o meno produrre pensiero[6] e
propone una versione dell’imitation game riferito
alle macchine, che diventerà famoso come Test di Turing[7].
Nel 1952, Arthur Samuel alla IBM e Christopher
Strachey all’Università di Manchester sviluppano, indipendentemente, software
in grado di giocare a Dama.
Nel 1956 ha luogo un evento chiave che alcuni
considerano, ancor più dell’articolo di McCulloch e
Pitts, il vero atto di nascita dell’AI: la Dartmouth Conference. Un workshop
di due mesi tenuto nell’estate del 1956 da John McCarthy, Marvin Minsky, Claude Shannon e Nathaniel Rochester mettendo
insieme i loro comuni interessi per reti neurali, teoria degli automi e scienza
cognitiva. In seno a tale conferenza nasce la prima definizione di AI: McCarthy
definì l’intelligenza artificiale come “la scienza e l’ingegneria per creare
macchine intelligenti”. In quello stesso anno Newell
e Simon creano l’IPL (Information
Processing Language), un linguaggio di programmazione di tipo list-processing,
con il quale realizzano il Logic Theorist
(LT): un programma in grado di dimostrare teoremi operando in logica simbolica.
E, sempre nel 1956, Arthur Samuel realizza il Reinforcement Learning: un tipo di algoritmo in cui un sistema di
AI impara come interagire con l’ambiente circostante per raggiungere il proprio
obiettivo attraverso un sistema basato sulla ricompensa.
Nel 1957 Newel e Simon
realizzano il General Problem Solver (GPS) progettato con l’intento di imitare con
dei protocolli le procedure di
risoluzione dei problemi (problem solving)
attuate dal cervello umano. E, ancora, Frank Rosenblatt
costruisce Mark I Perceptron alla Cornell
University: una rete neurale analogica a singolo strato in grado di apprendere
per tentativo ed errore.
Nel 1958 John McCarthy introduce il linguaggio di
programmazione LISP (LISt Processing) ideato specificamente per applicazioni
esecutive nell’ambito dell’AI.
Nel 1959 Nathaniel Rochester e Herbert Gelernter della IBM realizzano nel linguaggio FORTRAN la Geometry Machine: un programma in grado di
dimostrare teoremi di geometria non banali.
Anche nel campo dell’automazione incominciano ad
aversi sviluppi ascrivibili all’ambito dell’AI: nel 1961 la General Motors impiega il braccio meccanico “Unimate”
per lavori in metallo e saldature. Nel 1962 il metodo di apprendimento hebbiano, introdotto da Donald Hebb nel 1949, viene
migliorato, rispettivamente, da Widrow, nelle reti
chiamate Adaline e Madaline
nelle quali si introduce l’algoritmo di backdiffusion,
e da Rosenblatt, con i Perceptrons.
Negli anni seguenti, fra il ’63 e il ’64, vengono
sviluppati (in LISP) vari software per la risoluzione di problemi di
algebra e di geometria. Il 1966 è ancora un anno significativo per la storia
dell’AI. Joseph Weizenbaum sviluppa, al MIT, ELIZA,
il primo chatbot della storia
dell’AI, progettato per simulare il comportamento di uno psicoterapeuta
nell’atto di porre domande ad un paziente ed intrattenere con lui una
conversazione a scopo terapeutico. Sempre nello stesso anno, allo Stanford Research Institute, viene realizzato SHAKEY, il primo robot
multiuso con piattaforma mobile in grado di “ragionare” sull’ambiente
circostante.
Nel 1969 Minsky evidenzia un
limite dei Perceptrons: ovvero che un Perceptron a singolo strato (single-layer Perceptron)
non può eseguire la funzione logica XOR.
All’inizio degli anni ’70 nascono i SISTEMI ESPERTI:
un nuovo approccio, attuato inizialmente alla Carnegie Mellon University e
basato sull’impiego di informazioni specifiche del dominio di applicazione del
particolare sistema di AI. E, nel 1971, alla Stanford University, Feigenbaum
avvia l’Heuristic Programming Project finalizzato ad
estendere le aree di applicazione dei sistemi esperti.
Nel 1979, Kunihiko
Fukushima propone il “neocognitron”,
la prima architettura di rete neurale convoluzionale (CNN) inizialmente impiegata per il
riconoscimento della scrittura giapponese.
Nel 1982, McDermott
sviluppa R1, il primo sistema esperto che ha successo commerciale.
Nel corso degli anni ’80, e successivamente negli
anni ’90, l’algoritmo di backpropagation, un meccanismo primario di
apprendimento per le reti neurali, viene ampiamente rielaborato ed applicato
intensivamente.
Nel 1989, Yann LeCun rivisita le reti neurali convoluzionali e, impiegando
l’algoritmo di ottimizzazione del gradiente discendente (gradient descend) nel loro meccanismo di addestramento,
le rende adatte all’applicazione a problemi riguardanti la visione artificiale,
come ad esempio il riconoscimento di cifre scritte a mano.
Nel corso degli anni ’90 l’AI si apre ad altri campi,
quali la ricerca operativa e la statistica. E, proprio con l’apertura a modelli
probabilistici, in questi anni si ha l’introduzione delle reti Bayesiane. Nel 1998 Sutton rivisita l’apprendimento
per rinforzo (reinforcement learning)
adottando i processi di decisione di Markov. In questo periodo il progresso
tecnologico nella potenza di calcolo dei computer e la diffusione globale di internet
fanno sì che si generi una enorme quantità di dati digitali: nasce così l’era
dei Big Data. Inoltre si ha una
rinascita dell’interesse per l’AI in ambito industriale.
Nel 2006 si hanno le prime applicazioni di reti neurali
convoluzionali su unità di elaborazione grafica. Tali reti mostrano prestazioni
quattro volte più veloci rispetto a quelle dei computer convenzionali, ovvero basati
su una CPU (Central Processing Unit).
Nel 2009 nasce l’ImageNet dataset, un database contenente milioni di immagini etichettate.
Nel 2011 Watson, un sistema di AI sviluppato dalla
IBM, sconfigge il campione di Jeopardy, un quiz
televisivo della NBC molto noto negli USA. Nello stesso anno la Apple introduce
sul mercato l’assistente intelligente SIRI.
In questa fase della storia dell’AI la potenza di
calcolo delle unità di elaborazione grafica raggiunge un livello tale da
consentire un addestramento delle reti estremamente rapido ed efficace.
Nel 2012 il gruppo di ricerca di Geoffrey Hinton dell’Università di Toronto sviluppa AlexNet[8], una
rete neurale convoluzionale profonda (deep convolutional
neural network) con una architettura in grado di
gestire l’addestramento di più strati distinti di neuroni. La rete AlexNet vince la ImageNet Large
Scale Visual Recognition Challenge (ILSVRC),
migliorando significativamente tutti i parametri di classificazione di ImageNet[9].
Nel 2016 AlphaGo, un
Sistema di AI che combina reti neurali profonde con algoritmi avanzati di
ricerca, batte il campione del mondo di Go[10].
Nel 2018 Yoshua Bengio, Geoffrey Hinton, e Yann LeCun vincono il Turing
Award per i loro contributi pionieristici nell’ambito del deep learning, ovvero l’apprendimento delle reti neurali a molti
strati.
Gli anni più recenti, dal 2020 ad oggi, sono
caratterizzati dalla crescita esplosiva dell’AI generativa (generative AI). I sistemi di AI
generativa sono progettati per produrre testi, immagini o altri tipi di output
multimediali, in risposta a semplici richieste ricevute in input. Si basano
su particolari modelli statistici, che prendono appunto il nome di modelli generativi, e tipicamente
impiegano reti neurali profonde e deep learning. In questo ambito sono
ormai ben noti anche al grande pubblico degli utilizzatori del Web prodotti
quali, ad esempio, ChatGPT[11] e Bard[12], in
quanto resi disponibili all’accesso tramite Internet dai relativi produttori,
anche in modalità gratuite, proprio allo scopo di accelerarne quelle fasi di
addestramento che non richiedono supervisione[13].
Ritorniamo
ora allo studio di Luciano Dyballa e colleghi,
qui recensito.
La struttura polistratificata
complessa della neuroretina murina presenta una formazione di output del
segnale costituita da un set di circa 40 tipi distinti di cellule
gangliari della retina (RGC), con ciascun tipo caratterizzato da morfologia,
espressione genica e risposte visive proprie. Questa peculiarità ha suggerito
un’interpretazione fisiologica coerente del complesso della segnalazione in
uscita: specifici tipi cellulari si ritiene corrispondano a specifici elementi
visivi codificati per le corrispondenti aree della corteccia visiva primaria (V1).
Ma, considerando le rappresentazioni somatotopiche (cute)
e tonotopiche (coclea) dell’anatomia funzionale sensoriale, è lecito chiedersi:
secondo quale criterio questi specifici elementi sono organizzati nella
corteccia visiva?
A questo interrogativo ha cercato di dare risposta
la ricerca recente. Molti studi hanno focalizzato l’attenzione sulla fisiologia
delle vie parallele nei sistemi sensoriali e, in particolare, sui tratti
paralleli di fibre nel sistema visivo[14], [15]. Una
possibilità è che gli elementi visivi segnalati da vie parallele originate
dalle differenti classi di RGC si combinino a formare nuovi raggruppamenti di
caratteri nella corteccia[16], [17]. Una
possibilità alternativa è che l’organizzazione corticale dell’informazione
visiva sia un continuum, differente nella sostanza da quella della
retina, nonostante l’evidenza montante di identità neuroniche distinte in V1,
con tipi cellulari corticali di differenti morfologie, trascrittomi e proprietà
fisiologiche intrinseche.
Luciano Dyballa e colleghi,
per sottoporre a verifica sperimentale queste due ipotesi, hanno presentato una
batteria di stimoli visivi alla retina e all’area V1 di topi, simultaneamente
misurando le risposte neurali con la tecnica MEA (multi-electrode
arrays). Usando approcci di machine learning, i ricercatori hanno
sviluppato una tecnica di inclusione di varietà che cattura il modo in
cui le popolazioni neuroniche ripartono lo spazio degli elementi e come le
risposte visuali sono correlate alle proprietà anatomiche e fisiologiche dei
singoli neuroni.
L’osservazione sperimentale fornisce l’evidenza che
al livello delle popolazioni le rappresentazioni degli elementi degli stimoli visivi
sono sostanzialmente differenti tra retina e corteccia visiva: 1) le popolazioni
neuroniche retiniche sono raccolte in cluster, che campionano i
caratteri codificandoli in modo discreto; 2) le popolazioni neuroniche di V1
realizzano una rappresentazione in modo continuo degli elementi visivi
codificati.
Dopo aver rilevato questa differenza e aver stabilito
che i due tipi di organizzazione funzionale caratterizzano, rispettivamente,
una struttura nervosa recettoriale e un’area della corteccia cerebrale, i
ricercatori hanno applicato lo stesso approccio analitico a due popolari reti
neurali artificiali, in particolare due convolutional
neural network concepite come modello della rete
naturale che elabora l’informazione visiva. L’esito dello studio ha mostrato,
in modo inequivocabile, che la ripartizione degli elementi informativi nelle
reti artificiali è prossima a quella dei neuroni retinici e distante da quella
delle popolazioni di cellule nervose della corteccia cerebrale.
Concludiamo con un’osservazione degli autori che, a
nostro avviso, esprime in modo sintetico ed efficace il senso emerso dallo
studio: queste reti neurali sono più simili a grandi retine che a piccoli
cervelli.
Gli autori della nota ringraziano la dottoressa Isabella Floriani per la correzione della bozza
e invitano alla lettura delle recensioni di argomento connesso che appaiono nella sezione “NOTE E NOTIZIE” del
sito (utilizzare il motore interno nella pagina “CERCA”).
Patrizio
Perrella & Diane Richmond
BM&L-03 febbraio 2024
________________________________________________________________________________
La Società Nazionale
di Neuroscienze BM&L-Italia, affiliata alla International Society of Neuroscience,
è registrata presso l’Agenzia delle Entrate di Firenze, Ufficio Firenze 1, in data
16 gennaio 2003 con codice fiscale 94098840484, come organizzazione scientifica
e culturale non-profit.
[1] Warren S McCulloch and Walter Pitts, A logical calculus of the ideas immanent in nervous activity. The
bulletin of mathematical biophysics 5 (4): 115–133, December 1943.
[2] Alan Mathison Turing. On
computable numbers, with an application to the entscheidungsproblem.
Proceedings of the London Mathematical
Society 2 (1): 230–265,
1937.
[3] L’articolo fa riferimento alla
calcolabilità mediante macchina di Turing e, via Tesi di Church, alla
calcolabilità mediante algoritmi.
[4] Donald Olding Hebb, The Organization
of Behavior: A Neuropsychological Theory. John Wiley & Sons, Inc.,
New York 1949.
[5] A M Turing, Computing machinery and intelligence. Mind, LIX (236):
433–460, October 1950.
[6] Di grande immediatezza
l’incipit dell’articolo: “I
PROPOSE to consider the question, ‘Can machines think?’ This should begin with
definitions of the meaning of the terms ‘machine’ and ‘think’ […]”.
[7] La ratio alla base del test
di Turing, che in estrema sintesi consiste nel tentativo di discriminare un
operatore umano da uno artificiale esclusivamente attraverso il comportamento
esibito, è ancora molto attuale. Ne è prova il suo largo impiego, in una forma
generalizzata, nei protocolli di sicurezza Web che utilizzano i cosiddetti
CAPCHA (Completely Automated Public
Turing test to tell Computers and Humans Apart).
[8] Dal nome di Alex Krizhevsky, il principale autore della rete fra i membri
del team.
[9] Ciò in particolare si realizza
perché AlexNet, utilizzando molti meccanismi e
tecniche come le funzioni di attivazione
di unità lineari rettificate e la tecnica del dropout, raggiunge un potere discriminante più elevato in modo end-to-end, ovvero alimentando la rete direttamente
con le immagini pure.
[10] Il Go è un antichissimo gioco da
tavolo di strategia, di origine cinese.
[11] ChatGPT, acronimo di Chat Generative Pre-trained
Transformer (dove per Trasformer si intende un tipo di rete profonda basata su un particolare algoritmo di deep learning), è un chatbot, prodotto dalla OpenAI,
specializzato nella conversazione con un utente umano.
[12] Bard è il chatbot di Google
specializzato nella conversazione con utenti umani.
[13] Alcuni di questi sistemi di AI
generativa prevedono un protocollo di semi-supervised learning che consiste in una prima fase
intensiva di apprendimento supervisionato (supervised learning) seguita da una successiva esposizione ad una massa
estremamente grande di dati mediante una fase di apprendimento non
supervisionato (unsupervised learning).
[14]
Froudarakis E. et al., The visual cortex in
context. Annu Rev Vis Sci. 5, 317-339, 2019.
[15] Harris J. A. et al., Hierarchical organization of cortical
and thalamic connectivity. Nature 575, 195-202, 2019.
[16] Livingstone M. & Hubel D., Segregation of form, color, movement
and depth: Anatomy, physiology and perception. Science 240, 740-749,
1988.
[17] Bakhtiari S. et al., the functional specialization of visual
cortex emerges from training parallel pathways with self-supervised predictive learning.
Adv Neural Inf Process Syst. 34, 25164-25178, 2021.